1.1 相关性 关联性 Yule-Simpson悖论

尽管传统观点认为统计学只能推断相关性/关联性, 我们却认为统计学对于 因果性 的推断同样至关重要. 因果推断主要介绍使用的正式的 "语言" 以及在随机化/观察性研究中的统计方法.

1 一些常用的衡量关联性的方式

1.1 相关性 回归

我们定义 Z,YPearson 相关系数(correlation coefficient) 为 ρZY=Cov(Z,Y)Var(Z)Var(Y), 它用于表示 Z,Y 的线性相关性. 事实上如果用 ZY 进行线性回归 Y=α+βZ+ε, 我们可以得到 (参考 1 Simple Regression) β=Cov(Z,Y)Var(Z)=ρZYVar(Y)Var(Z).

1.2 列联表

对于两个 0-1 变量 Z,Y, 记 pzy=P(Z=z,Y=y), 则可以用 列联表(contingency table) 来表示它们的关系:

Y=1 Y=0
Z=1 p11 p10
Z=0 p01 p00

定义

命题

  1. 下列命题等价: ZY, RD=0, RR=1, OR=1.
  2. 如果 pzy 均为正, 则下列命题等价: RD>0, RR>1, OR>1.
  3. 如果 P(Y=1|Z=1)P(Y=1|Z=0) 很小, 则 ORRR.

对于我们的观测结果 nzy=#{i:Zi=z,Yi=y}, 同样可以绘制列联表, 这里省略.

2 Yule-Simpson 悖论

例子

这是一个经典的肾结石的统计例子. 我们用 Z=1 代表进行大规模手术, 0 代表微创手术; Y=1 代表手术成功, 0 代表失败. 给出观测结果的列联表:

Y=1 Y=0
Z=1 273 77
Z=0 289 61

因此 RD^=5%<0, 说明微创手术成功率更高.
但是实际上对照组/实验组的分组并不随机, 可能会因为结石的大小/严重程度进行分组的偏好. 对于有小结石的病人, 列联表为

Y=1 Y=0
Z=1 81 6
Z=0 234 36

而对于大结石的病人

Y=1 Y=0
Z=1 192 71
Z=0 55 25

分别计算两组的 RD: RD^smaller=6%,RD^larger=4%>0,
这都说明反而是大规模手术的治疗效果好!

为了解释这个实验, 记 X=1 代表小结石, X=0 代表大结石. 首先 RD^X,Z=P^(Z=1|X=1)P^(Z=1|X=0)=53%<0, 这说明 大结石的病人更倾向于接受实验组(大规模手术). 然后固定组别, 看看 X 和结果 Y 的联系: P^(Y=1|Z=1,X=1)P^(Y=1|Z=1,X=0)=20%,P^(Y=1|Z=0,X=1)P^(Y=1|Z=0,X=0)=18%.
这说明 小结石病人有更高的成功率.

Pasted image 20250921131841.png|300
我们定义 XZ,Y混淆变量.